எச்சரிக்கை அமைப்புகளை எளிய அறிவிப்புகளிலிருந்து சக்திவாய்ந்த நிகழ்வு பதில் ஆட்டோமேஷன் எஞ்சின்களாக மாற்றுவது எப்படி என்பதைக் கண்டறியவும். உலகளாவிய பொறியியல் குழுக்களுக்கான வழிகாட்டி.
பீப் ஒலியைக் கடந்து: எச்சரிக்கை அமைப்பு ஆட்டோமேஷன் மூலம் நிகழ்வு பதிலை மாஸ்டரிங் செய்தல்
உலகெங்கிலும் உள்ள தொழில்நுட்ப வல்லுநர்களுக்கு நன்கு தெரிந்த ஒரு காட்சி: இரவின் அமைதியில் ஒரு எச்சரிக்கையின் ஊடுருவக்கூடிய ஒலி. அது உங்களை தூக்கத்திலிருந்து இழுக்கும் ஒரு டிஜிட்டல் சைரன், உடனடியாக கவனம் தேவை. பல ஆண்டுகளாக, ஒரு எச்சரிக்கை அமைப்பின் முதன்மை செயல்பாடு அவ்வளவுதான் - எச்சரிக்கை செய்வது. ஒரு சிக்கலை சரிசெய்ய சரியான மனிதரைக் கண்டுபிடிக்க சிறப்பாக வடிவமைக்கப்பட்ட ஒரு அதிநவீன பேஜர் அது. ஆனால் இன்றைய சிக்கலான, விநியோகிக்கப்பட்ட மற்றும் உலகளாவிய அளவிலான அமைப்புகளில், யாரையாவது எழுப்புவது மட்டும் போதாது. கையேடு தலையீட்டின் விலை, செயலிழப்பு நேரம், வருவாய் இழப்பு மற்றும் மனித தீக்காயம் ஆகியவற்றில் அளவிடப்படுகிறது.
நவீன எச்சரிக்கை உருவாகியுள்ளது. இது இனி ஒரு அறிவிப்பு அமைப்பு மட்டுமல்ல; இது தானியங்கி நிகழ்வு பதிலுக்கான மத்திய நரம்பு மண்டலமாகும். மனிதர் தலையிட வேண்டியதற்கு முன்பே சிக்கல்களைக் கண்டறிந்து, சரிசெய்து, தீர்க்க வடிவமைக்கப்பட்ட புத்திசாலித்தனமான செயல்களின் ஒரு தொடருக்கான தூண்டுதலாக இது உள்ளது. இந்த வழிகாட்டி, பீப்பைத் தாண்டிச் செல்லத் தயாராக இருக்கும் தளம் நம்பகத்தன்மை பொறியியலாளர்கள் (SREs), DevOps வல்லுநர்கள், IT செயல்பாட்டு குழுக்கள் மற்றும் பொறியியல் தலைவர்களுக்கானது. உங்கள் எச்சரிக்கை உத்தியை எதிர்வினை அறிவிப்பு மாதிரியிலிருந்து ஒரு செயலூக்கமான, தானியங்கி தீர்மானம் இயந்திரமாக மாற்ற தேவையான கொள்கைகள், நடைமுறைகள் மற்றும் கருவிகளை நாங்கள் ஆராய்வோம்.
எச்சரிக்கையின் பரிணாமம்: எளிய பிங்க்களிலிருந்து அறிவார்ந்த ஒருங்கிணைப்பு வரை
நாம் எங்கு செல்கிறோம் என்பதைப் புரிந்து கொள்ள, நாம் எங்கிருந்து வந்தோம் என்பதைப் புரிந்து கொள்வது அவசியம். எச்சரிக்கை அமைப்புகளின் பயணம் நம் மென்பொருள் கட்டமைப்புகளின் அதிகரித்து வரும் சிக்கலான தன்மையை பிரதிபலிக்கிறது.
நிலை 1: கையேடு யுகம் - "ஏதோ உடைந்துவிட்டது!"
தகவல் தொழில்நுட்பத்தின் ஆரம்ப நாட்களில், கண்காணிப்பு அடிப்படை நிலையில்தான் இருந்தது. ஒரு ஸ்கிரிப்ட் ஒரு சேவையகத்தின் CPU பயன்பாடு 90% வரம்பைக் கடந்தால் சரிபார்த்திருக்கலாம், அவ்வாறு இருந்தால், விநியோகப் பட்டியலுக்கு மின்னஞ்சலை அனுப்பவும். ஆன்-கால் அட்டவணை இல்லை, விரிவாக்கங்கள் இல்லை, சூழல் இல்லை. எச்சரிக்கை ஒரு எளிய, பெரும்பாலும் புரியாத, உண்மையை அறிக்கை செய்தது. பதில் முற்றிலும் கையேடாக இருந்தது: உள்நுழைந்து, விசாரணை செய்து, சரிசெய்யவும். இந்த அணுகுமுறை நீண்ட தீர்மானம் நேரத்திற்கு (MTTR - சராசரி தீர்மானம் நேரம்) வழிவகுத்தது மற்றும் ஒவ்வொரு ஆபரேட்டரிடமிருந்தும் ஆழமான அமைப்பு அறிவு தேவைப்பட்டது.
நிலை 2: அறிவிப்பு யுகம் - "எழுந்திரு, மனிதரே!"
PagerDuty, Opsgenie (இப்போது Jira Service Management) மற்றும் VictorOps (இப்போது Splunk On-Call) போன்ற பிரத்யேக எச்சரிக்கை தளங்களின் எழுச்சி ஒரு குறிப்பிடத்தக்க முன்னேற்றத்தைக் குறித்தது. இந்த கருவிகள் அறிவிப்புச் செயலை தொழில்முறைப்படுத்தின. அவை இப்போது தொழில் தரமாக இருக்கும் முக்கியமான கருத்துக்களை அறிமுகப்படுத்தின:
- ஆன்-கால் அட்டவணைகள்: சரியான நேரத்தில், உலகின் எந்தப் பகுதியிலும் சரியான நபர் அறிவிக்கப்படுவதை உறுதி செய்தல்.
- மேல்நோக்கிய கொள்கைகள்: முதன்மை ஆன்-கால் பொறியியலாளர் ஒரு எச்சரிக்கையை ஒப்புக்கொள்ளவில்லை என்றால், அது தானாகவே ஒரு இரண்டாம் நிலை தொடர்பு அல்லது ஒரு மேலாளருக்கு மேல் செல்கிறது.
- பல சேனல் அறிவிப்புகள்: எச்சரிக்கை பார்க்கப்படுவதை உறுதிப்படுத்த புஷ் அறிவிப்புகள், SMS, தொலைபேசி அழைப்புகள் மற்றும் அரட்டை பயன்பாடுகள் மூலம் பொறியியலாளர்களை அடைதல்.
இந்த யுகம் சராசரி ஒப்புதல் நேரத்தை (MTTA) குறைப்பதற்கானது. சிக்கலில் ஒரு மனிதரை நம்பகத்தன்மையுடனும் விரைவாகவும் ஈடுபடுத்துவதில் கவனம் செலுத்தப்பட்டது. ஒரு பெரிய முன்னேற்றம் இருந்தாலும், இது கண்டறிதல் மற்றும் நிவாரணம் ஆகியவற்றின் முழுப் பொறுப்பையும் ஆன்-கால் பொறியியலாளரிடம் வைத்தது, இது எச்சரிக்கை சோர்வு மற்றும் எரிப்புக்கு வழிவகுத்தது.
நிலை 3: ஆட்டோமேஷன் யுகம் - "அமைப்பை கையாள விடுங்கள்."
இது எச்சரிக்கையின் தற்போதைய மற்றும் எதிர்கால நிலை. எச்சரிக்கை இனி இயந்திரத்தின் பொறுப்பின் முடிவல்ல; அது ஆரம்பம். இந்த முன்னுதாரணத்தில், ஒரு எச்சரிக்கை என்பது முன்னரே வரையறுக்கப்பட்ட, தானியங்கி பணிப்பாய்வை செயல்படுத்தும் ஒரு நிகழ்வு ஆகும். மனித தலையீட்டின் தேவையை குறைப்பது அல்லது அகற்றுவது இதன் நோக்கம், பொதுவான சம்பவங்களின் வளர்ந்து வரும் வகுப்பிற்கு. இந்த அணுகுமுறை, மனிதர்களின் கையேடு கலை வடிவமாக இல்லாமல், குறியீடு, ஆட்டோமேஷன் மற்றும் அறிவார்ந்த அமைப்புகளுடன் தீர்க்க வேண்டிய பொறியியல் பிரச்சனையாக நிகழ்வு பதிலை நேரடியாக குறிவைக்கிறது.
நிகழ்வு பதில் ஆட்டோமேஷனின் முக்கிய கோட்பாடுகள்
ஒரு வலுவான ஆட்டோமேஷன் உத்தியைக் கட்டியெழுப்புவதற்கு மனநிலையில் மாற்றம் தேவைப்படுகிறது. இது எச்சரிக்கைகளுக்கு குருட்டுத்தனமாக ஸ்கிரிப்ட்களை இணைப்பது பற்றியது அல்ல. இது நம்பகமான, நம்பகமான மற்றும் அளவிடக்கூடிய அமைப்பைக் கட்டியெழுப்புவதற்கான ஒரு கொள்கைபூர்வமான அணுகுமுறை பற்றியது.
கொள்கை 1: செயல்படக்கூடிய எச்சரிக்கைகள் மட்டுமே
நீங்கள் ஒரு பதிலை தானியக்கமாக்குவதற்கு முன், சமிக்ஞை அர்த்தமுள்ளதாக இருப்பதை நீங்கள் உறுதிப்படுத்த வேண்டும். ஆன்-கால் குழுக்களில் மிகப்பெரிய பிளேக் எச்சரிக்கை சோர்வு - குறைந்த மதிப்பு, செயல்பட முடியாத எச்சரிக்கைகளின் நிலையான தாக்குதலால் ஏற்படும் உணர்வின்மை. ஒரு எச்சரிக்கை தீப்பிடித்தால், சரியான பதில் அதை புறக்கணிப்பதாகும், அது ஒரு எச்சரிக்கை அல்ல; அது இரைச்சல்.
உங்கள் கணினியில் உள்ள ஒவ்வொரு எச்சரிக்கையும் "என்னதான்?" என்ற சோதனையில் தேர்ச்சி பெற வேண்டும். ஒரு எச்சரிக்கை தீப்பிடிக்கும்போது, என்ன குறிப்பிட்ட நடவடிக்கை எடுக்கப்பட வேண்டும்? பதில் தெளிவற்றதாக இருந்தால் அல்லது "கண்டுபிடிக்க 20 நிமிடங்கள் விசாரிக்க வேண்டும் என்றால்," எச்சரிக்கையை சுத்திகரிக்க வேண்டும். அதிக CPU எச்சரிக்கை பெரும்பாலும் இரைச்சலாகும். "பயனர்பேசி P99 தாமதம் அதன் சேவை நிலை குறிக்கோளை (SLO) 5 நிமிடங்களுக்கு மீறியுள்ளது" என்பது பயனர் தாக்கத்தின் தெளிவான சமிக்ஞையாகும் மற்றும் நடவடிக்கை தேவைப்படுகிறது.
கொள்கை 2: ரன்புக் குறியீடாக
பல தசாப்தங்களாக, ரன்புக்குகள் நிலையான ஆவணங்களாக இருந்தன - ஒரு சிக்கலைத் தீர்ப்பதற்கான படிகளை விவரிக்கும் உரை கோப்புகள் அல்லது விக்கி பக்கங்கள். இவை பெரும்பாலும் காலாவதியானவை, தெளிவற்றவை மற்றும் மனித தவறுகளுக்கு ஆளாகக்கூடியவை, குறிப்பாக ஒரு செயலிழப்பின் அழுத்தத்தின் கீழ். நவீன அணுகுமுறை குறியீடாக ரன்புக் ஆகும். உங்கள் நிகழ்வு பதில் நடைமுறைகள் செயல்படக்கூடிய ஸ்கிரிப்டுகள் மற்றும் கட்டமைப்பு கோப்புகளில் வரையறுக்கப்பட வேண்டும், Git போன்ற பதிப்பு கட்டுப்பாட்டு அமைப்பில் சேமிக்கப்பட வேண்டும்.
இந்த அணுகுமுறைக்கு ஏராளமான நன்மைகள் உள்ளன:
- நிலையான தன்மை: நிவாரண செயல்முறை ஒவ்வொரு முறையும் ஒரே மாதிரியாக செயல்படுத்தப்படுகிறது, யார் ஆன்-காலில் இருக்கிறார்கள் அல்லது அவர்களின் அனுபவத்தைப் பொருட்படுத்தாமல். வெவ்வேறு பிராந்தியங்களில் செயல்படும் உலகளாவிய குழுக்களுக்கு இது மிகவும் முக்கியமானது.
- சோதனைத்திறன்: உங்கள் ஆட்டோமேஷன் ஸ்கிரிப்ட்களுக்கு நீங்கள் சோதனைகளை எழுதலாம், அவற்றை உற்பத்திக்கு அனுப்புவதற்கு முன், மேடையில் சரிபார்க்கலாம்.
- சமநிலை ஆய்வு: பதில் நடைமுறைகளில் மாற்றங்கள் பயன்பாட்டு குறியீட்டைப் போலவே குறியீடு மதிப்பாய்வு செயல்முறைக்கு உட்படுகின்றன, தரத்தை மேம்படுத்துகின்றன மற்றும் அறிவைப் பகிர்ந்து கொள்கின்றன.
- தணிக்கை: உங்கள் நிகழ்வு பதில் தர்க்கத்தில் செய்யப்பட்ட ஒவ்வொரு மாற்றத்தின் தெளிவான, பதிப்பு வரலாறு உங்களிடம் உள்ளது.
கொள்கை 3: அடுக்கு ஆட்டோமேஷன் & மனித-இன்-தி-லூப்
ஆட்டோமேஷன் என்பது ஒன்றுமில்லை என்ற சுவிட்ச் அல்ல. ஒரு கட்ட, அடுக்கு அணுகுமுறை நம்பிக்கையை உருவாக்குகிறது மற்றும் ஆபத்தை குறைக்கிறது.
- நிலை 1: கண்டறியும் ஆட்டோமேஷன். இது தொடங்க பாதுகாப்பான மற்றும் மதிப்புமிக்க இடமாகும். ஒரு எச்சரிக்கை தீப்பிடிக்கும்போது, முதல் தானியங்கி செயல் தகவல் சேகரிப்பதாகும். இது பாதிக்கப்பட்ட சேவையிலிருந்து பதிவுகளைப் பெறுவது, ஒரு `kubectl describe pod` கட்டளையை இயக்குவது, இணைப்பு புள்ளிவிவரங்களுக்காக ஒரு தரவுத்தளத்தை வினவுவது அல்லது ஒரு குறிப்பிட்ட டாஷ்போர்டிலிருந்து அளவீடுகளை இழுப்பது போன்றவையாக இருக்கலாம். இந்தத் தகவல் தானாகவே எச்சரிக்கை அல்லது நிகழ்வு டிக்கெட்டில் சேர்க்கப்படும். இது ஒரு ஆன்-கால் பொறியியலாளரின் ஒவ்வொரு நிகழ்வின் தொடக்கத்திலும் 5-10 நிமிடங்கள் பரபரப்பான தகவல்களை சேகரிப்பதை மட்டுமே சேமிக்க முடியும்.
- நிலை 2: பரிந்துரைக்கப்பட்ட நிவாரணங்கள். அடுத்த கட்டம், ஆன்-கால் பொறியியலாளருக்கு ஏற்கனவே அங்கீகரிக்கப்பட்ட ஒரு செயலை வழங்குவதாகும். கணினி தானாகவே நடவடிக்கை எடுப்பதற்குப் பதிலாக, அது எச்சரிக்கையில் ஒரு பொத்தானை வழங்குகிறது (எ.கா., ஸ்லாக்கில் அல்லது எச்சரிக்கை கருவியின் பயன்பாட்டில்) "சேவையை மறுதொடக்கம் செய்" அல்லது "ஃபைலோவர் தரவுத்தளம்" என்று கூறுகிறது. மனிதன் இன்னும் இறுதி முடிவெடுப்பவனாக இருக்கிறான், ஆனால் செயல்பாடு தானாகவே ஒரு-கிளிக் செயல்முறையாகும்.
- நிலை 3: முழுமையாக தானியக்கமாக்கப்பட்ட நிவாரணம். இது இறுதி கட்டமாகும், நன்கு புரிந்துகொள்ளப்பட்ட, குறைந்த ஆபத்துள்ள மற்றும் அடிக்கடி ஏற்படும் நிகழ்வுகளுக்கு ஒதுக்கப்பட்டுள்ளது. ஒரு கிளாசிக் உதாரணம் என்னவென்றால், செயல்படாத ஒரு நிலையற்ற வலை சேவையக பாட். பாடை மறுதொடக்கம் செய்வது வெற்றியின் அதிக நிகழ்தகவையும் எதிர்மறை பக்க விளைவுகளின் குறைந்த ஆபத்தையும் கொண்டிருந்தால், இந்த செயல் সম্পূর্ণরূপে தானியக்கமாக்கப்படலாம். கணினி தோல்வியைக் கண்டறிந்து, மறுதொடக்கம் செய்கிறது, சேவை ஆரோக்கியமாக இருப்பதை சரிபார்க்கிறது, மேலும் எச்சரிக்கையை தீர்க்கிறது, ஒரு மனிதனை எழுப்பாமலேயே.
கொள்கை 4: ரிச் சூழல் ராஜா
ஒரு தானியங்கி அமைப்பு உயர் தரவு தரவை நம்பியுள்ளது. ஒரு எச்சரிக்கை ஒரு வரியாக இருக்கக்கூடாது. இது மனிதர்களுக்கும் இயந்திரங்களுக்கும் பயன்படுத்தக்கூடிய தகவல்களின் பணக்கார, சூழல் விழிப்புணர்வு பயோலோடாக இருக்க வேண்டும். ஒரு நல்ல எச்சரிக்கை இதில் அடங்கும்:
- உடைந்திருப்பது என்ன, பயனர் தாக்கம் என்ன என்பது பற்றிய தெளிவான சுருக்கம்.
- சரியான நேர சாளரம் மற்றும் வடிப்பான்கள் ஏற்கனவே பயன்படுத்தப்பட்ட தொடர்புடைய கண்காணிப்பு டாஷ்போர்டுகளுக்கு நேரடி இணைப்புகள் (எ.கா., கிராஃபா, டேட்டாடாக்).
- இந்த குறிப்பிட்ட எச்சரிக்கைக்கு பிளேபுக் அல்லது ரன்புக்கிற்கான இணைப்பு.
- பாதிக்கப்பட்ட சேவை, பிராந்தியம், கிளஸ்டர் மற்றும் சமீபத்திய வரிசைப்படுத்தல் தகவல் போன்ற முக்கிய மெட்டாடேட்டா.
- நிலை 1 ஆட்டோமேஷன் மூலம் சேகரிக்கப்பட்ட கண்டறியும் தரவு.
இந்த பணக்கார சூழல் பொறியியலாளரின் அறிவாற்றல் சுமையை வியத்தகு முறையில் குறைக்கிறது மற்றும் தானியங்கி நிவாரண ஸ்கிரிப்ட்கள் சரியாக மற்றும் பாதுகாப்பாக இயங்குவதற்கு தேவையான அளவுருக்களை வழங்குகிறது.
உங்கள் தானியங்கி நிகழ்வு பதில் பைப்லைனைக் கட்டியெழுப்புதல்: ஒரு நடைமுறை வழிகாட்டி
தானியங்கி மாதிரியாக மாறுவது ஒரு பயணம். உங்கள் அமைப்பு அளவு அல்லது இருப்பிடத்தைப் பொருட்படுத்தாமல் எந்தவொரு அமைப்புக்கும் ஏற்றவாறு ஒரு படிப்படியான கட்டமைப்பை இங்கே காணலாம்.
படி 1: அடிப்படை கண்காணிப்பு
நீங்கள் பார்க்க முடியாததை உங்களால் தானியக்கமாக்க முடியாது. எந்தவொரு அர்த்தமுள்ள ஆட்டோமேஷனுக்கும் ஒரு உறுதியான கண்காணிப்பு பயிற்சி பேச்சுவார்த்தைக்குட்படாத முன்நிபந்தனையாகும். இது கண்காணிப்பின் மூன்று தூண்களை அடிப்படையாகக் கொண்டது:
- அளவீடுகள்: என்ன நடக்கிறது என்பதை உங்களுக்குக் கூறும் நேர-வரிசை எண்ணியல் தரவு (எ.கா., கோரிக்கை விகிதங்கள், பிழை சதவீதங்கள், CPU பயன்பாடு). Prometheus மற்றும் Datadog அல்லது New Relic போன்ற வழங்குநர்களிடமிருந்து நிர்வகிக்கப்பட்ட சேவைகள் இங்கே பொதுவானவை.
- பதிவுகள்: தனித்த நிகழ்வுகளின் நேர முத்திரை பதிவுகள். ஏன் ஏதாவது நடந்தது என்பதை அவை உங்களுக்குக் கூறுகின்றன. ELK Stack (Elasticsearch, Logstash, Kibana) அல்லது Splunk போன்ற மையப்படுத்தப்பட்ட பதிவு தளங்கள் இன்றியமையாதவை.
- தடயங்கள்: ஒரு கோரிக்கையின் பயணம் ஒரு விநியோகிக்கப்பட்ட அமைப்பு வழியாக செல்லும் விரிவான பதிவுகள். மைக்ரோ சர்வீஸ் கட்டமைப்புகளில் தடைகள் மற்றும் தோல்விகளைக் கண்டுபிடிப்பதற்கு அவை விலைமதிப்பற்றவை. ஓபன் டெலிமெட்ரி என்பது உங்கள் பயன்பாடுகளை தடயங்களுக்காக கருவிகளாக மாற்றுவதற்கான வளர்ந்து வரும் உலகளாவிய தரமாகும்.
இந்த மூலங்களிலிருந்து உயர்தர சமிக்ஞைகள் இல்லாமல், உங்கள் எச்சரிக்கைகள் நம்பகத்தன்மையற்றதாக இருக்கும், மேலும் உங்கள் ஆட்டோமேஷன் குருடாக பறக்கும்.
படி 2: உங்கள் எச்சரிக்கை தளத்தைத் தேர்ந்தெடுத்து கட்டமைத்தல்
உங்கள் மைய எச்சரிக்கை தளம் உங்கள் செயல்பாட்டின் மூளையாகும். கருவிகளை மதிப்பிடும்போது, அடிப்படை திட்டமிடல் மற்றும் அறிவிப்புகளைத் தாண்டிப் பாருங்கள். ஆட்டோமேஷனுக்கான முக்கிய அம்சங்கள்:
- ரிச் ஒருங்கிணைப்புகள்: உங்கள் கண்காணிப்பு கருவிகள், அரட்டை பயன்பாடுகள் (ஸ்லாக், மைக்ரோசாஃப்ட் குழுக்கள்) மற்றும் டிக்கெட் அமைப்புகள் (ஜிரா, சர்வீஸ் நவ்) ஆகியவற்றுடன் எவ்வளவு நன்றாக ஒருங்கிணைக்கிறது?
- சக்திவாய்ந்த API மற்றும் வெப்ஹூக்குகள்: உங்களுக்கு நிரல் கட்டுப்பாடு தேவை. வெப்ஹூக்குகளை அனுப்புவதும் பெறுவதும் வெளிப்புற ஆட்டோமேஷனைத் தூண்டுவதற்கான முதன்மை வழிமுறை.
- உள்ளமைக்கப்பட்ட ஆட்டோமேஷன் திறன்கள்: நவீன தளங்கள் நேரடியாக ஆட்டோமேஷன் அம்சங்களைச் சேர்க்கின்றன. PagerDuty-இன் ஆட்டோமேஷன் செயல்முறைகள் மற்றும் ருண்டெக் ஒருங்கிணைப்பு அல்லது Jira Service Management (Opsgenie)இன் செயல் சேனல்கள், எச்சரிக்கையிலிருந்து நேரடியாக ஸ்கிரிப்ட்களையும் ரன்புக்களையும் தூண்ட உங்களை அனுமதிக்கின்றன.
படி 3: ஆட்டோமேஷன் வேட்பாளர்களை அடையாளம் காணுதல்
ஒரே நேரத்தில் எல்லாவற்றையும் தானியக்கமாக்க முயற்சிக்காதீர்கள். குறைந்த தொங்கும் பழத்தில் தொடங்குங்கள். நல்ல வேட்பாளர்களை அடையாளம் காண உங்கள் நிகழ்வு வரலாறு தரவுகளின் தங்கச் சுரங்கமாகும். நிகழ்வுகளைப் பாருங்கள்:
- அடிக்கடி: ஒவ்வொரு நாளும் நடக்கும் ஒன்றை தானியக்கமாக்குவது அரிதான நிகழ்வை தானியக்கமாக்குவதை விட மிக அதிக முதலீட்டு வருவாயை வழங்குகிறது.
- நன்றாக புரிந்து கொள்ளப்பட்டது: மூல காரணம் மற்றும் நிவாரண படிகள் தெரிந்திருக்க வேண்டும் மற்றும் ஆவணப்படுத்தப்பட வேண்டும். மர்மமான அல்லது சிக்கலான தோல்விகளுக்கான பதில்களை தானியக்கமாக்குவதை தவிர்க்கவும்.
- குறைந்த ஆபத்து: நிவாரண நடவடிக்கை குறைந்தபட்ச வெடிப்பு ஆரத்தைக் கொண்டிருக்க வேண்டும். ஒற்றை, நிலையற்ற பாடை மறுதொடக்கம் செய்வது குறைந்த ஆபத்து. ஒரு உற்பத்தி தரவுத்தள அட்டவணையை விடுவது இல்லை.
மிகவும் பொதுவான எச்சரிக்கை தலைப்புகளுக்கான உங்கள் நிகழ்வு மேலாண்மை அமைப்பின் எளிய வினவல் பெரும்பாலும் தொடங்குவதற்கான சிறந்த இடமாகும். கடந்த மாதத்தில் "சேவையகம் X இல் உள்ள வட்டு இடம் நிறைந்தது" 50 முறை தோன்றினால், மேலும் தீர்மானம் எப்போதும் "சுத்தப்படுத்தும் ஸ்கிரிப்டை இயக்குங்கள்" என்றால், உங்கள் முதல் வேட்பாளரைக் கண்டுபிடித்துள்ளீர்கள்.
படி 4: உங்கள் முதல் தானியங்கி ரன்புக்கை செயல்படுத்துதல்
ஒரு கான்கிரீட் உதாரணத்தின் மூலம் நடப்போம்: ஒரு Kubernetes கிளஸ்டரில் உள்ள ஒரு வலை பயன்பாட்டு பாட் அதன் சுகாதாரச் சோதனையில் தோல்வியடைகிறது.
- தூண்டுதல்: ஒரு Prometheus Alertmanager விதி, சேவைக்கான `up` அளவீடு இரண்டு நிமிடங்களுக்கு மேல் 0 ஆக உள்ளது என்பதைக் கண்டறிகிறது. இது ஒரு எச்சரிக்கையைத் தீயாகச் செய்கிறது.
- வழி: எச்சரிக்கை உங்கள் மைய எச்சரிக்கை தளத்திற்கு அனுப்பப்படுகிறது (எ.கா., PagerDuty).
- செயல் - நிலை 1 (கண்டறிதல்): PagerDuty எச்சரிக்கையைப் பெறுகிறது. ஒரு வெப்ஹூக் மூலம், இது ஒரு AWS லாம்ப்டா செயல்பாட்டை (அல்லது நீங்கள் விரும்பும் சேவையற்ற தளத்தில் ஒரு ஸ்கிரிப்ட்) செயல்படுத்துகிறது. இந்த செயல்பாடு:
- பாட் பெயர் மற்றும் பெயர்வெளியைப் பெற எச்சரிக்கை பேலோடை பகுப்பாய்வு செய்கிறது.
- பாட்டின் நிலை மற்றும் சமீபத்திய நிகழ்வுகளைப் பெற சம்பந்தப்பட்ட கிளஸ்டருக்கு எதிராக `kubectl get pod` மற்றும் `kubectl describe pod` ஐ இயக்குகிறது.
- `kubectl logs` ஐப் பயன்படுத்தி தோல்வியுற்ற பாட்டில் இருந்து கடைசி 100 வரி பதிவுகளைப் பெறுகிறது.
- இந்த எல்லா தகவல்களையும் அதன் API வழியாக PagerDuty நிகழ்வுக்கு ஒரு பணக்கார குறிப்பாக சேர்க்கிறது.
- முடிவு: இந்த கட்டத்தில், ஆன்-கால் பொறியியலாளரை நீங்கள் அறிவிக்க தேர்வு செய்யலாம், அவரிடம் இப்போது விரைவான முடிவை எடுக்க தேவையான அனைத்து கண்டறியும் தரவுகளும் உள்ளன. அல்லது, நீங்கள் முழு ஆட்டோமேஷனுக்கு செல்லலாம்.
- செயல் - நிலை 3 (நிவாரணம்): லாம்ப்டா செயல்பாடு `kubectl delete pod <pod-name>` ஐ இயக்க தொடர்கிறது. Kubernetes' ReplicaSet கட்டுப்படுத்தி அதை மாற்ற புதிய, ஆரோக்கியமான பாடை தானாகவே உருவாக்கும்.
- சரிபார்ப்பு: ஸ்கிரிப்ட் பின்னர் ஒரு சுழலில் நுழைகிறது. அது 10 வினாடிகள் காத்திருக்கிறது, பின்னர் புதிய பாட் இயங்கிக் கொண்டிருக்கிறதா மற்றும் அதன் தயார்நிலை ஆய்வில் தேர்ச்சி பெற்றுவிட்டதா என சரிபார்க்கிறது. ஒரு நிமிடத்திற்குப் பிறகு வெற்றி பெற்றால், ஸ்கிரிப்ட் PagerDuty API ஐ மீண்டும் அழைத்து நிகழ்வை தானாகவே தீர்க்கிறது. பல முயற்சிகளுக்குப் பிறகு சிக்கல் தொடர்ந்தால், அது கைவிட்டுவிட்டு உடனடியாக நிகழ்வை ஒரு மனிதனுக்கு மேல்நோக்கி அனுப்புகிறது, ஆட்டோமேஷன் ஒரு தோல்வி சுழலில் சிக்கிக்கொள்ளாமல் இருப்பதை உறுதி செய்கிறது.
படி 5: உங்கள் ஆட்டோமேஷனை அளவிடுதல் மற்றும் முதிர்ச்சியடைதல்
உங்கள் முதல் வெற்றி உருவாக்க ஒரு அடித்தளமாக உள்ளது. உங்கள் பயிற்சியை முதிர்ச்சியடையச் செய்வது இதில் அடங்கும்:
- ஒரு ரன்புக் களஞ்சியத்தை உருவாக்குதல்: உங்கள் ஆட்டோமேஷன் ஸ்கிரிப்ட்களை ஒரு பிரத்யேக கிட் களஞ்சியத்தில் மையப்படுத்துங்கள். இது உங்கள் முழு அமைப்புக்கும் பகிரப்பட்ட, மீண்டும் பயன்படுத்தக்கூடிய நூலகமாக மாறும்.
- AIOps அறிமுகப்படுத்துதல்: நீங்கள் வளரும்போது, நீங்கள் செயற்கை நுண்ணறிவை தகவல் தொழில்நுட்ப செயல்பாடுகளுக்கு (AIOps) கருவிகளைப் பயன்படுத்தலாம். இந்த தளங்கள் வெவ்வேறு ஆதாரங்களில் இருந்து தொடர்புடைய எச்சரிக்கைகளை ஒரு நிகழ்வாக தொடர்புபடுத்தி, இரைச்சலைக் குறைத்து, மூல காரணத்தை தானாகவே கண்டுபிடிக்க உதவும்.
- ஆட்டோமேஷனின் கலாச்சாரத்தை உருவாக்குதல்: ஆட்டோமேஷன் உங்கள் பொறியியல் கலாச்சாரத்தில் முதல் வகுப்பு குடிமகனாக இருக்க வேண்டும். ஆட்டோமேஷன் வெற்றிகளை கொண்டாடுங்கள். பொறியியலாளர்கள் தங்கள் செயல்பாட்டு வலி புள்ளிகளை தானியக்கமாக்குவதற்கு ஸ்பிரிண்ட்களின் போது நேரத்தை ஒதுக்குங்கள். குழு ஆரோக்கியத்திற்கான ஒரு முக்கிய அளவீடு "தூக்கமில்லாத இரவுகளின் எண்ணிக்கை"யாக இருக்கலாம், இது வலுவான ஆட்டோமேஷன் மூலம் பூஜ்ஜியத்திற்கு ஓட்டுவதாகும்.
தானியங்கி உலகில் மனித கூறு
ஆட்டோமேஷன் பொறியியலாளர்களை வழக்கற்றுப் போகச் செய்யும் என்ற பொதுவான பயம் உள்ளது. யதார்த்தம் அதற்கு நேர் எதிரானது: அது அவர்களின் பங்கை உயர்த்துகிறது.
பாத்திரங்களை மாற்றுதல்: தீயணைப்பிலிருந்து தீ தடுப்பு பொறியியலாளருக்கு
ஆட்டோமேஷன் பொறியியலாளர்களை மீண்டும் மீண்டும், கையேடு தீயணைப்பு பணியிலிருந்து விடுவிக்கிறது. இது கட்டமைப்பு மேம்பாடுகள், செயல்திறன் பொறியியல், கணினி பின்னடைவை அதிகரித்தல் மற்றும் அடுத்த தலைமுறை ஆட்டோமேஷன் கருவிகளைக் கட்டுதல் போன்ற அதிக மதிப்புமிக்க, மிகவும் ஈடுபாட்டுடன் கூடிய வேலையில் கவனம் செலுத்த அனுமதிக்கிறது. அவர்களின் பணி தோல்விகளுக்கு எதிர்வினை புரிவதில் இருந்து, தோல்விகள் தானாகவே கையாளப்படும் அல்லது முற்றிலும் தடுக்கப்படும் ஒரு அமைப்பை உருவாக்குவதற்கு மாறுகிறது.
பிந்தைய மரணங்களின் முக்கியத்துவம் மற்றும் தொடர்ச்சியான முன்னேற்றம்
ஒரு மனிதனால் அல்லது இயந்திரத்தால் தீர்க்கப்பட்டாலும், ஒவ்வொரு நிகழ்வும் ஒரு கற்றல் வாய்ப்பாகும். குற்றம் சாட்டப்படாத பிந்தைய மரண செயல்முறை எப்போதும் முன்னெப்போதையும் விட முக்கியமானது. உரையாடலின் கவனம் போன்ற கேள்விகளை உள்ளடக்கியிருக்க வேண்டும்:
- எங்கள் தானியங்கி கண்டறிதல் சரியான தகவலை அளித்ததா?
- இந்த நிகழ்வை தானாகவே சரிசெய்ய முடியுமா? அவ்வாறெனில், அந்த ஆட்டோமேஷனை உருவாக்க வேண்டிய செயல் உருப்படி என்ன?
- ஆட்டோமேஷன் முயற்சி செய்யப்பட்டு தோல்வியுற்றால், ஏன் தோல்வியுற்றது, அதை எவ்வாறு வலுவாக மாற்ற முடியும்?
அமைப்பில் நம்பிக்கையை உருவாக்குதல்
தானியங்கி சரியானதைச் செய்யும் என்று அவர்கள் நம்பினால் மட்டுமே பொறியியலாளர்கள் இரவில் தூங்குவார்கள். வெளிப்படைத்தன்மை, நம்பகத்தன்மை மற்றும் கட்டுப்பாடு மூலம் நம்பிக்கை உருவாக்கப்படுகிறது. அதாவது ஒவ்வொரு தானியங்கி செயலும் கவனமாக பதிவு செய்யப்பட வேண்டும். எந்த ஸ்கிரிப்ட் இயக்கப்பட்டது, எப்போது இயக்கப்பட்டது மற்றும் அதன் விளைவு என்ன என்பதைப் பார்ப்பது எளிதாக இருக்க வேண்டும். கண்டறிதல் மற்றும் பரிந்துரைக்கப்பட்ட ஆட்டோமேஷன்களுடன் தொடங்கி, முழு சுயாட்சி நடவடிக்கைகளுக்குச் செல்வதற்கு முன், குழு காலப்போக்கில் கணினியில் நம்பிக்கையை உருவாக்க அனுமதிக்கிறது.
நிகழ்வு பதில் ஆட்டோமேஷனுக்கான உலகளாவிய பரிசீலனைகள்
சர்வதேச அமைப்புகளுக்கு, ஒரு ஆட்டோமேஷன்-மைய அணுகுமுறை தனித்துவமான நன்மைகளை வழங்குகிறது.
சன் ஹேண்டாஃப்களைப் பின்தொடரவும்
தானியங்கி ரன்புக்குகள் மற்றும் பணக்கார சூழல் வெவ்வேறு நேர மண்டலங்களில் உள்ள ஆன்-கால் பொறியியலாளர்களிடையே தடையற்ற ஹேண்டாஃப் செய்கின்றன. வட அமெரிக்காவில் உள்ள ஒரு பொறியியலாளர், ஆசியா-பசிபிக் பகுதியில் உள்ள அவர்களது சகாக்கள் ஆன்-காலில் இருந்தபோது, இரவில் தானாகவே தீர்க்கப்பட்ட நிகழ்வுகளின் பதிவை மதிப்பாய்வு செய்வதன் மூலம் தங்கள் நாளைத் தொடங்கலாம். சூழல் கணினியால் கைப்பற்றப்படுகிறது, அவசர ஹேண்டாஃப் கூட்டத்தில் இழக்கப்படவில்லை.
பிராந்தியங்களுக்கு இடையில் தரப்படுத்தல்
ஆட்டோமேஷன் நிலைத்தன்மையை அமல்படுத்துகிறது. ஒரு முக்கியமான நிகழ்வு ஐரோப்பாவில் அல்லது தென் அமெரிக்காவில் உள்ள குழுவால் நிர்வகிக்கப்பட்டாலும் அதே வழியில் கையாளப்படுகிறது. இது பிராந்திய செயல்முறை மாற்றங்களை நீக்குகிறது மற்றும் சிறந்த நடைமுறைகள் உலகளவில் பயன்படுத்தப்படுவதை உறுதி செய்கிறது, இது ஆபத்தை குறைக்கிறது மற்றும் நம்பகத்தன்மையை மேம்படுத்துகிறது.
தரவு குடியுரிமை மற்றும் இணக்கம்
சட்டப்பூர்வ அதிகார வரம்புகளில் செயல்படும் ஆட்டோமேஷனை வடிவமைக்கும்போது, தரவு குடியுரிமை மற்றும் தனியுரிமை விதிமுறைகளை (ஐரோப்பாவில் GDPR, கலிபோர்னியாவில் CCPA மற்றும் பிற போன்றவை) கருத்தில் கொள்வது அவசியம். உங்கள் ஆட்டோமேஷன் ஸ்கிரிப்ட்கள் இணக்க விழிப்புடன் வடிவமைக்கப்பட வேண்டும், கண்டறியும் தரவு எல்லைகளை தவறாக நகர்த்தப்படவில்லை என்பதை உறுதிசெய்து, தணிக்கை நோக்கங்களுக்காக நடவடிக்கைகள் பதிவு செய்யப்பட்டுள்ளன.
முடிவு: உங்கள் ஸ்மார்ட் நிகழ்வு பதிலுக்கான பயணம்
எளிய எச்சரிக்கையிலிருந்து முழுமையாக தானியங்கி நிகழ்வு பதில் பணிப்பாய்வுக்கு மாறுவது ஒரு மாற்றத்தக்க பயணம். இது எதிர்வினை தீயணைப்பு கலாச்சாரத்திலிருந்து செயலூக்க பொறியியலுக்கான ஒரு மாற்றம். செயல்படக்கூடிய எச்சரிக்கை கொள்கைகளை ஏற்றுக்கொள்வதன் மூலம், ரன்புக்கை குறியீடாக நடத்துவதன் மூலம், மற்றும் செயல்படுத்தலுக்கு ஒரு அடுக்கு, நம்பிக்கை கட்டும் அணுகுமுறையை மேற்கொள்வதன் மூலம், நீங்கள் மிகவும் மீள்தன்மை, திறமையான மற்றும் மனிதாபிமான ஆன்-கால் அனுபவத்தை உருவாக்க முடியும்.
மனிதர்களை லூப்பில் இருந்து அகற்றுவது அல்ல, ஆனால் அவர்களின் பங்கை உயர்த்துவதே இதன் நோக்கம் - சாதாரணமானவற்றை தானியக்கமாக்குவதன் மூலம் மிகவும் சவாலான பிரச்சினைகளில் பணியாற்ற அவர்களை இயக்குவதாகும். உங்கள் எச்சரிக்கை மற்றும் ஆட்டோமேஷன் அமைப்பின் வெற்றியின் இறுதி அளவீடு ஒரு அமைதியான இரவாகும். நீங்கள் உருவாக்கிய அமைப்பு தன்னைத்தானே கவனித்துக்கொள்ளும் திறன் கொண்டது என்ற நம்பிக்கையே, உங்கள் குழு தங்கள் ஆற்றலை எதிர்காலத்தை உருவாக்குவதில் கவனம் செலுத்த அனுமதிக்கிறது. உங்கள் பயணம் இன்று தொடங்குகிறது: உங்கள் நிகழ்வு பதில் செயல்பாட்டில் ஒரு அடிக்கடி, கையேடு பணியை அடையாளம் கண்டு, எளிய கேள்வியைக் கேளுங்கள், "இதை நாம் எவ்வாறு தானியக்கமாக்க முடியும்?"